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基于 字典 学 习 的 跨 媒体 检索 技术 * 
REF TGR, xt 


(山东 师范 大 学 信息 科学 与 工程 学 院 , 济南 250358) 


摘 要 : 在 研究 跨 媒 体 信 息 检 索 时 ， 对 于 不 同 模 态 数据 的 异 构 性 提出 了 挑战 ， 针 对 如 何 更 好 的 克服 异 构 问 题 以 提高 多 
模 态 数据 之 间 的 检索 精度 ， 提 出 了 一 种 基于 字典 学 习 的 新 跨 媒体 检索 技术 。 首 先 ， 通 过 字典 学 习 方法 学 习 两 个 不 同 模 
态 数据 之 间 的 稀 跤 系数， 然后， 通过 特征 映射 方案 由 两 个 不 同 的 投影 矩阵 分 别 把 它们 投入 共同 的 特征 子 空间 ， 最 后 ， 
通过 标签 对 齐 同一 类 来 增强 不 同 模 态 之 间 的 相关 性 。 实 验 结果 表明 ， 与 传统 的 同 构 子 空间 学 习 方 法 相 比 ， 基 于 字典 的 
算法 分 类 性 能 优越 ， 该 实验 方法 在 两 个 数据 集 上 优 于 几 种 最 先进 的 方法 。 
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Cross-media retrieval technology based on dictionary learning 


Qi Yudan, Zhang Huaxiang!, Liu Yihe 
(School of Information Science & Engineering Shandong Normal University, Jinan 250358, China) 


Abstract: In the study of cross-media retrieval, how to capture and correlate heterogeneous features originating from different 
modalities remains a challenge. To cope with the aforementioned problems, this paper presented a novel cross-modal retrieval 
framework based on coupled dictionary learning. Firstly, it obtained sparse coefficients from different modalities by imposing 
dictionary learning. Then, it projected the data samples from different modalities into a common feature space. Moreover, it 
leveraged label information to align the cross-modal data sample pairs in the common space so as to encourage the inherent 
correlation across the different modalities. Simulation experimental results show that the method based on dictionary learning 
algorithm has superior recognition performance in comparison with the methods based on traditional mid-level feature subspace, 


experiment results on two public datasets demonstrate that our method outperforms several state-of-the-art methods. 
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化 两 组 特征 之 间 的 相关 性 ， 得 到 两 种 特征 在 子 空间 中 的 低 维 表 

达 ， 并 使 其 相关 度 最 高 。CCA 的 提出 为 跨 媒体 检索 的 研究 起 到 

期 的 数据 检索 多 针对 单 模 态 数 据 ， 即 查询 和 检索 的 数据 了 很 大 的 推动 作用 ， 它 的 扩展 方法 在 跨 媒 体检 索 领域 得 到 了 广 
属于 相同 模 态 。 例 如 ， 给 定 一 个 文本 查询 ， 单 模 态 的 方法 直接 泛 的 应 用 。 例 如 ，Rasiwasia 等 人 馈 提 出 的 方法 中 ， 从 关联 假设 
与 网 络 上 的 文本 原 数 据 进行 匹配 ， 而 不 是 相 一 致 的 图 像 。 通 党 和 抽象 假设 两 个 方面 对 跨 媒 体检 索 问 题 进行 了 整合 。Hwang 等 
这 些 单 模 态 的 方法 不 能 应 用 于 跨 媒 体检 索 。 跨 媒体 检索 是 多 媒 ” 人 外 已 经 根据 用 户 提 供 的 注释 顺序 ， 对 单词 的 相对 重要 性 进行 
体检 索 中 基于 内 容 的 一 个 新 的 研究 领域 ， 由 于 不 同 模 态 的 数据 了 建 模 ， 以 提高 跨 模式 检索 的 精度 。Ballan 等 人 外 使 用 核 CCA 
之 间 存 在 着 异 构 性 难以 实现 直接 互 检 。 如 何 解 决 不 同 模 态 数据 (kernel canonical correlation analysisKCCA) 开 发 交叉 视图 检索 
之 间 的 异 构 问题 ， 从 而 实现 多 媒体 数据 之 间 的 互 检 成 为 跨 媒 体 方法 来 建立 图 像 和 文本 的 关联 性 。 除 基于 CCA 的 方法 外 , 还 有 
检索 领域 的 一 个 重要 研究 问题 。 许多 其 他 的 跨 媒 体检 索 的 方法 。 其 中 偏 最 小 二 乘法 (partial least 
近年 来 ， 针 对 跨 媒 体检 索 提出 了 许多 新 的 方法 ， 通 过 挖掘 squares,PLS ) 中 是 一 种 新 型 的 多 元 统计 数据 分 析 方 法 , 它 于 1983 

不 同 模 态 之 间 潜 在 的 关系 ， 实 现 跨 模 态 数据 之 间 的 互 检 。 有 具体 年 由 伍德 (Wold) 和 阿 巴 诺 (Albano) 等 人 首次 提出 ,近年 来 , 它 在 
来 说 ， 最 具 权 威 的 典型 相关 性 分 析 (canonical correlation ”理论 、 方 法 和 应 用 方面 得 到 了 迅速 的 发 展 。Chen 等 人 外 将 偏 最 
analysis, CCA) 是 一 种 经 典 的 特征 学 习 方 法 ,该 方法 通过 最 大 ”小 二 乘法 (PLS) 应 用 于 跨 媒体 检索 ， 他 们 使 用 PLS 来 转换 视 
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觉 特 征 到 文本 特征 空间 中 ， 学 习 一 个 语义 来 测量 两 种 不 同 模式 ”重要 ， 若 查询 的 语义 被 错误 判断 ， 则 更 难以 检索 相关 文本 。 如 
之 间 的 相似 性 。 除 此 之 外 ， 还 有 线性 判别 分 析 CLDAO 和 边界 。” 果 分 开 执 行 ， 图 像 检索 文本 时 就 可 以 把 图 像 单独 投影 到 它 的 语 
Fisher 分 析 (MFA)。Sharma 等 人 中 将 基于 线性 判别 分 析 (LDA) 义 空间 ， 这 时 对 这 个 图 像 的 语义 理解 没有 了 文本 的 干扰 则 是 最 
和 边界 Fisher 分 析 (MFA) 的 广义 多 视图 分 析 扩 展 为 广义 多 家 天 的， 理解 了 图 像 语义 之 后 ， 对 数据 的 检索 更 加 准确 ， 从 而 提 
图 LDA (GMLDA) 和 广义 多 视图 MFA (GMMFA) 已 应 用 了 高 跨 媒体 检索 的 精度 ， 通 过 实验 证 明 模 态 独 立 相 对 其 他 算法 也 
跨 媒体 检索 。 跨 媒体 哈 希 是 通过 将 不 同形 式 的 数据 嵌入 到 一 个 ” 是 有 效 的 。 

普通 的 低 维 汉 明 空间 中 进行 跨 媒体 检索 ， 将 高 维 数据 对 象 映射 

为 简洁 的 哈 希 编码 ， 使 得 相似 的 数据 对 象 拥有 相同 或 者 相似 的 a 
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s off next to it. 


哈 希 码 ， 进 而 通过 测量 二 进 制 哈 希 码 之 间 的 相似 度 来 获得 原始 ia | tele | 
数据 之 间 的 相似 度 ， 近 年 来 引起 了 广泛 的 关注 。 例 如 ，Ybu 等 人 n 


[wo parked jet airplanes facing promn 


四 提出 了 一 种 判别 的 哈 希 字典 学 习 方 法 (DCDH)。 另 外 ， 随 着 深 ee ee i 
度 学 习 在 计算 机 领域 突破 性 的 进展 ， 一 些 深度 学 习 方法 也 被 用 
于 跨 媒 体 相似 度 检索 模型 ， 如 卷 积 神经 网 络 (convolutional 


a) 用 图 像 检索 文本 (12T) 


neural network, CNN ) 、 递归 神经 网 络 (recursive neural EMEN a ide 
network, RNN) 和 自动 编码 (auto encoder) 等 。 基于 深度 学 习 方 ine l 7 mt) 
法 研究 ，Andrew 等 人 四 提出 了 深度 熏 型 相关 性 分 析 C deep 1 
canonical correlation analysis,DCCA )。DCCA 学 习 不 同 模 态 数据 es talk whi lo mia dei 

之 间 的 非 线性 投影 ,从 而 使 得 学 习 到 的 数据 是 高 度 线性 相关 的 。 


b) 用 文本 检索 图 像 (T2D 
图 1 跨 媒 体检 索 任务 


Wang 等 人 00 提 出 了 基于 有 监督 方法 的 多 模 态 深层 神经 网 络 
(MDCCN). Jiang 等 人 0 提出 了 基于 深度 学 习 的 实时 网 络 跨 
媒体 检索 方法 ， 根 据 图 像 特征 向 量 的 贡献 对 它们 中 的 元 素 进行 本 文 将 字典 学 习 与 模 态 独立 相 结合 ， 学 习 一 种 基于 模 态 独 
排序 ， 然 后 消除 不 必要 的 特性 。 即 使 这 些 存在 的 方法 解决 了 跨 ” 立 与 字典 学 习 新 的 跨 媒 体检 索 技 术 。 首 先 通过 字典 学 习 将 多 模 
媒体 检索 的 问题 但 是 大 多 数 存在 的 方法 只 专注 于 通过 两 个 特 。 态 数据 转换 为 稀疏 表示 ， 并 保证 所 生成 的 表示 是 均匀 的 ; 然后 
征 空 间 的 距离 来 学 习 两 种 模 态 的 相关 性 ， 从 而 忽略 了 不 同 的 语 。 使 用 线性 回归 映射 这 些 稀 琉 系数 ， 将 来 自 不 同 模 态 的 数据 生成 
义 特征 。 另 外 ， 类 标签 信息 也 没有 得 到 充分 的 利用 。 为 充分 学 。 ”的 稀疏 表示 由 两 个 不 同 的 投影 箱 阵 映射 到 两 个 公共 语义 空间 中 。 
习 在 不 同 特征 空间 中 的 异 构 特 征 ， 稀 疏 字 典 学 习 日 益 受 到 广泛 图 2 描述 了 本 文 提 出 方法 的 框架 。 其 中 图 2 (a) 和 (c) 是 两 个 
的 关注 。 线性 回归 操作 ， 分 别 表示 图 像 和 文本 特征 空间 到 语义 空间 。 医 

此 ， 有 具有 相同 语义 的 多 模 态 数据 可 以 在 公共 潜在 子 空间 中 关联 

起 来 。 图 2(b) 是 一 种 相关 性 分 析 操 作 ， 在 公共 空间 中 保持 多 模 
ka 2] 02 9 由 在 从 训练 数据 中 找到 一 组 特殊 的 稀疏 编 。 态 数 据 的 相互 关联 。 将 图 2 (a) 与 (b) 结合 起 来 ， 学 习 对 DT 
码 ， 这 一 组 稀 纹 元 素 足 以 线性 地 表示 这 些 原始 数据 的 特征 ， 从 WRK: 同样 的 , 对 TA 学 习 一 个 不 同 的 投影 由 图 2(b) 和 (ce) 


4 
: 
而 用 尽 可 能 少 的 数据 表示 尽 可 能 多 的 内 容 。 因 此 ， 字 典 实 质 上 < 同 优化 。 
RE 图 像 检 文本 公共 空间 
Q IS 


a dH 


Sex 


EN 


FEF Be KB E EAE, CB Lo je FAST Be > BH os 
尽 可 能 多 的 特征 ， 以 提高 检索 效率 。 由 于 这 种 表示 是 有 效 的 ， 
字典 学 习 得 到 了 广泛 的 应 用 。 在 本 文中 主要 关注 在 图 像 与 文本 
之 间 的 多 媒体 检索 (图 1), 使 用 图 像 搜索 文本 文档 或 者 文本 搜索 
& (I2T 和 T21)。 其 中 图 (a) 给 定 一 个 飞机 的 图 像 ， 任 务 


€ 


图 像 空间 


区 

是 找到 与 此 图 像 相 关 的 文本 报告 ，(b) 关于 两 个 飞行 员 的 文本 

文件 ， 任 务 是 找到 关于 他 们 相关 的 图 片 。 ~ 
另 一 方面 ， 本 文 将 两 个 模 态 的 检索 任务 分 开 来 执行 ， 即 为 SD g^ 

模 态 独立 方法 。 模 态 独立 tm 不 同 于 以 前 的 方法 学 习 一 对 投影， g stems 


Ce) 文本 的 语义 空间 


图 2 跨 媒 体检 索 的 框架 


它 学 习 两 对 映射 将 图 像 检索 文本 和 文本 检索 图 像 从 其 原始 特征 
空间 投影 到 两 个 公共 潜在 子 空间 。 因 为 如 果 两 个 任务 同时 学 习 ， 
得 到 的 公共 子 空间 为 RT 和 T21 共同 的 最 优 子 空间 ， 通 常 对 用 
à p AUR - 2 ”相关 工作 
于 检索 模 态 的 语义 理解 并 非 最 优 的 .例如 ,在 图 像 检索 文本 中 ， 

通常 认为 图 像 语义 空间 中 查询 的 准确 表示 比 要 检索 的 文本 更 为 为 了 提高 跨 媒 体检 索 效 率 ， 本 文 提 出 一 种 基于 模 态 独立 的 
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Py 
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， 其 中 字典 学 习 模型 是 关键 的 技术 ， 并 将 图 像 检 


索 文本 与 文本 检索 图 像 的 任务 分 开 训练 ， 最 后 确定 目标 函数 ， 


根据 不 同 的 参数 设置 来 讨论 它们 的 优化 算法 。 


2.1 


利 


通过 字典 重 构 ， 将 


字典 学 习 


dx X -[x x, x,]e R"* FEY 


} 


Tiii J 


EEJ P, ERO N 的 数据 集 。 
和 进行 跨 媒体 检索 中 异 构 数 据 的 处 理 。 主 要 方法 是 


JB: |x,-a,p, [ 为 通过 字典 学 习 图 像 的 稀疏 系数 4, s 


x, -| 为 通过 字典 学 习 文 本 的 稀疏 系数 4, [cw ro | fe 


为 线性 回归 项 ， 通 将 


[投影 矩阵 机, 将 稀疏 系数 矩阵 投影 到 语义 


间 的 关系 。 其 目标 函数 表示 为 


其 中 : D=[d,,d,,..d,]ER 


min|x-ap|; +æ lAl, 
st. last vie: Ki o 


KxP 


RENE, a, 是 字典 中 第 


JA ha BH ZT A EG R P BR LR BL 


i 个 


原子 ; K 表示 字典 的 大 小 ; Aer 是 根据 字典 D 得 到 的 样本 


数据 X DOLAR |E ERF 的 二 范 数 ，|x-apl 目的 是 使 字 


Hy 
N 


ae 


2.2 


2.2.1 图 像 检 索 文 本 


DT 的 线性 


Ds 


本 数据 集 ; 


义 子 空间 。 


的 投影 矩阵 。 


IE» 
A 


像 数据 集 ; 


J a 4], 来 控制 稀疏 。 


检索 任务 描述 
综 上 对 本 文 提出 优化 框架 原理 的 概述 ， 下 面 对 本 文 检索 的 
两 个 任务 分 别 进行 详细 的 描述 。 


& D mR AR A 的 线性 组 合 尽 可 能 地 接近 数据 样本 X; 另外 ， 


本 节 首 先 讨论 跨 媒 体检 索 中 图 像 检索 相 一 致 的 文本 。 其 中 
可 归 术 语 是 一 个 从 图 像 空间 到 语义 空间 的 回归 操作 。 
假设 本 文 定 义 Xy, = [v v, -v,]€ R”? 为 维度 P ,个 数 为 n 的 


T 


X, ltt e RI 为 维度 为 g， 个 数 为 n 的 文 
kx m kxp M. B 
c n" 是 学 习 图 像 的 字典 ，D， eR” 是 学 习 文本 


; A, e R 是 图 像 的 稀 玻 系数 ，4 cR” 是 文本 的 稀 政 


(REFERRE PRG, Av 和 文本 的 稀 疏 系数 Ar 依赖 了 


^ 


ps 
F 


(i) nxc ` SFE x 
oY [py y, le R^ 是 关键 词 矩 阵 , 即 公共 语 


» kxc xc Y 
其 中 图 像 的 投影 矩阵 是 We Re, Wp e R” 是 文本 


字典 学 习 的 目的 是 分 别 学 习 图 像 和 文本 的 两 个 投 


E 阵 ， 利 用 投影 矩阵 将 两 个 模 态 的 稀疏 表示 A, 和 A, 投影 到 


一 个 共同 的 特征 空间 中 。 描 述 的 框架 表述 如 下 : 


min 
D,,D;,h,A WW 


AD +r AD ef rp 


eA] *]4])*]AW, - AW. | +o, |W, p +0, |W, f (2) 


MA 


ZE, BEAR AA HATA IA CIS RA RE Ef HP BRL 


0<a <1， 为 均衡 参数 。|4| Mjah AAR, fin, [ 和 


[vif FL eb bl BE HEAR DE w, Aw, 复杂 度 避 免 过 拟 合 。 


|a m ar; 为 相关 分 析 项 ， 目 的 是 使 同一 类 的 数据 更 相近 ， 


增强 不 同 模 态 之 间 的 相关 性 。 本 文 的 模型 中 ， 不 同 模 态 的 数据 
相关 性 得 以 表示 。 
2.2.2 文本 检索 图 像 

本 节 讨 论 跨 媒体 检索 中 文本 检索 相 一 致 的 图 像 。T2I 的 线 
性 回归 术语 是 一 个 从 文本 空间 到 语义 空间 的 回归 操作 ， 与 图 像 
检索 类 似 。 
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定义 X, - [v v. v] € R”? 为 维度 p， 个 数 为 n 的 图 像 数 据 


iur 
aur 
>x< 
ll 


[stent 1 € RI 为 维度 为 q, 个 数 为 n 的 文本 数据 集 ; 


A, eR” 是 图 像 的 稀疏 系数 ， 4,。 RW EK RRR: 


kx, » kx M. ` 
D, <sR” 是 学 习 图 像 的 字典 ， D, < R ”是 学 习 文本 的 5 


Y" = [y y», JsR” 是 公共 语义 子 空 间 , 与 Y9O 可 以 近似 的 看 


做 一 个 公共 语义 子 空 间 。 这 里 设 两 个 与 图 形 检索 文本 不 同 的 投 


Wt Ww, eR Fw, eR, HARMON AEM MOB 


[X - ADR. +X, - ADAE + As -r° E 


min 
D,,Di, A A Wns T 
e. (A + LAr) IA -A Weal + [Wal +0; (wl (3) 


D 


与 


像 检索 文本 原理 相同 ， 其 中 [amu rop, 为 通过 投影 


MEE w 将 稀 朴 系数 矩阵 投影 到 关键 词 子 空间 ， 使 得 具有 相同 


= 


语义 的 多 媒体 数据 聚集 在 一 起 ， vo. 和 | 站 控制 其 复杂 度 


K 


避免 过 拟 合 ; [aw Am. 作为 相关 分 析 项 使 同一 类 的 数据 更 


相近 ， 提 高 它们 的 相关 性 。 同 样 的 ， 在 本 文 模型 中 ， 不 同 模 态 
的 数据 相关 性 被 表示 。 
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3 ”优化 


DT 和 T21 的 优化 问题 是 两 个 矩阵 的 无 约束 优化 问题 。 
IE R (2) 和 (30 是 非 凸 优化 问题 ， 并 有 许多 局 部 最 优 解 。 
为 解决 这 个 问题 ， 设 计 一 个 算法 来 寻找 固定 点 。 可 以 注意 到 ， 
当 固 定 其 他 两 项 时 , 式 (2) 对 另 一 项 是 凸 面 的 。 相似 的 , 式 (3) 
在 固定 另外 两 个 的 情况 下 ,也 可 以 是 凸 面 的 。 分 别 通过 固定 Dv 
(DT)、Av (A7T) 或 者 Wvi (Wr) 中 的 其 中 两 个 用 迭代 更 新 来 
完成 对 另 一 个 的 最 小 化 。 有 具体 优化 策略 如 下 ; 


T 


输入 : 图 像 的 特征 矩阵 Xvw ， 文 本 的 特征 矩阵 Xr， 以 及 图 像 和 文本 相 一 


致 的 语义 Y。 
1 初始 化 字典 Dv ~ Dr ARAR Av 、Ar 靠 FDDLI22]， 设 Wu ~ Wri 为 
单位 矩阵 。 


2 如 果 不 收敛 则 继续 执行 。 
3 更 新 字典 D。、 Dr, 由 式 (4) (5)， 固 定 稀疏 系数 Av, Ar 和 投影 矩阵 
Wyv1、Wr1。 

4 TM Pit AB Av. Ar, 由 式 〈6)， 固 定 字典 Dy, Dt 和 投影 矩阵 Wa. Wr1。 
5: 更 新 投影 矩阵 Wai, Wr, 由 式 (7), Bil 
直到 收敛 为 止 。 


典 Dy, Dr 和 投影 矩阵 Wai. Wt1。 


m 


典 Dy, Dy 和 系数 Av. Aro 


[0] 


uu, 
ys 可 


4 S 


为 验证 本 文 提出 的 跨 媒 体检 索性 能 ， 进 行 了 以 下 实验 : P 


首先 ， 更 新 字典 Dv, WMA Av 和 投影 矩阵 Wv, 

如 下 : 
min |Xy -A Dyl|p 
Dy 
st. Js: vieu:xi co 

这 是 一 个 二 次 约束 的 二 次 规划 问题 (QCQP )， 求 解 可 以 通 
过 拉 格 朗 日 对 偶 技 术 得 到 20。 

同 理 ， 对 于 字典 Dr 的 求解 相似 ,可 以 由 下 式 得 出 : 


2 
min x, AD; |]. 


st. as1 viet: K] ©) 


然后 ， 在 字典 Dv 和 投影 矩阵 Wvi 不 变 的 情况 下 来 求解 稀 
ARA d (2) 可 得 


min |X, - AD, j +A Wi- vj. 
ta [A *IAW,-AW, © 


通过 分 析 ， 求 偏 导 可 得 


T T T T T 
A, = (XD, £YW, + AW W,) (D,D, ta E 2W,W,) 


d 


同 理 可 得 


了 | D T. 
A, = (X,D, -4A W Wa) (D,D, *aE-W.W.) 


最 后 ， 更 新 投影 矩阵 Wv1， 固 定 字 典 Dv 和 稀疏 系数 Ave 


式 (2) 可 得 


分 析 


2 
Male o 


2 2 
F + |My +a, 


m [AW -Y 


同 理 ， 可 求解 得 


了 -Lor T -l 
W1 = QAy Ay +92) (AyY + Ay A Wri) 


T T -l 
Wr, = Ay AyWy (Ay A p +032) 


综 上 所 述 ， 本 文 设计 的 目标 函数 在 各 部 分 均 为 凸 函 数 ， 
此 有 最 优 解 。 为 了 获得 最 终结 果 ， 需 要 不 断 地 重复 上 述 步骤 ， 


先 阐述 实验 设置 和 本 文采 用 的 评估 指标 ， 然 后 将 本 文 提出 的 方 
法 与 其 他 几 种 模型 进行 比较 。 
4.1 实验 设计 
本 文 在 两 个 公共 图 像 -文本 数据 集 上 对 该 方法 进行 评估 。 
Wikipedia CA ARAN FA Pascal Sentence 的 数据 集 [171。 
实验 针对 两 个 检索 任务 进行 的 :a) 图 像 数 据 库 中 的 文本 查询 ; b) 
文本 数据 库 中 的 图 像 查询 。 
Wikipedia 数据 集 : 数据 集 包含 有 10 个 类 的 2 866 个 图 像 
一 文本 对 ， 随 机 地 将 数据 集 分 为 2 173 个 训练 集 和 693 个 测试 


pau 


让 


Yit 
o 


Pascal Sentence 数据 集 : 数据 集 包 含 了 1000 个 图 像 一 文本 
对 ， 由 20 个 语义 类 别 的 标签 标注 (每 个 类 别 有 50 对 )， 对 于 每 
一 类 , 随机 选择 30 个 图 像 一 文本 对 作为 训练 集 , 其 余 的 作为 测 


E 
i 
Yit 


对 于 两 个 数据 集 ， 每 个 图 像 一 文本 对 的 真实 标签 用 来 构造 
语义 向 量 (用 于 Wikipedia 数据 集 的 10 维 ， 用 于 Pascal Sentence 
数据 集 的 20 个 维度 ) 被 用 于 语义 表示 。 有 具体 地 ， 本 文 利用 了 4 
096 维 CNN 视觉 特征 表示 图 像 和 由 文献 [17] 所 公开 提供 的 的 
100 维 LDA 来 表示 文本 。 

在 本 文中 , 使 用 归 一 化 相关 的 系数 (NC) 来 测量 变换 子 空 
间 中 不 同 媒 体 对 象 的 特征 之 间 的 相似 度 ， 通 过 召回 率 CPR) 曲 
线 和 平均 精度 均值 MAP) 来 评估 检索 的 性 能 。mAP 是 每 个 查 
询 的 平均 精度 (AP) 的 平均 值 。 分 别 的 ， 定 义 平均 精度 为 


AP = ELPO), RP: 了 是 属于 同一 类 别 的 检索 数据 的 数 


量 ; PC 表示 第 T 个 检索 数据 的 精度 。 如 果 第 T 个 检索 的 数据 与 
查询 具有 相同 的 标号 ， 则 5(r) =1， 否 则 5(r) =0 。 在 实验 中 ， 
设置 N=50。 查询 所 有 的 平均 精度 AP 的 值 以 获得 平均 精度 的 平 


直到 最 终 收敛 。 本 文 在 以 下 的 算法 中 总 结 了 此 过 程 。 相 似 的 方 
法 可 以 应 用 到 文本 检索 图 像 。 

算法 ”I2T 算法 描述 
算法 1I2T WAR Sea 


均值 mAP， 其 中 mAP 的 值 越 大 ， 算 法 的 准确 性 越 高 。 
4.2 性 能 比较 

为 了 客观 地 评价 本 文 提 出 的 方法 ， 将 本 文 所 提出 的 方法 与 
其 他 几 种 主要 的 算法 进行 比较 。 其 中 包括 典型 相关 性 分 析 CCA 
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算法 中、 深度 典型 相关 性 分 析 DCCADI, i8 X UNS SM HAP 
语义 关联 匹配 SCM 算法 外 、 三 视图 CCA(TV CCA)PS, J^ X € 
视角 线性 判别 分 析 (GMLDA) mI、 广义 多 视图 边缘 Fisher 分 析 
(GMMFA) ,以 及 模 态 独立 的 跨 媒体 检索 (MDCR ) M, 在 本 
文 的 实验 中 ， 所 有 的 比较 方法 都 使 用 相同 的 特性 和 训练 集 进行 
比较 。 


表 2 Wikipedia 数据 集 的 跨 媒体 检索 性 能 比较 
F 均 精度 均值 (mAP) 


Bs 图 像 检索 文本 ”文本 检索 图 像 FHE 
CCA 0.226 0.246 0.236 
DCCA 0.309 0.288 0.298 
SM 0.403 0.357 0.380 
SCM 0.351 0.324 0.337 
TVCCA 0.310 0.316 0.313 
GMLDA 0.372 0.322 0.347 
GMMFA 0.371 0.322 0.346 
MDCR 0.420 0.382 0.401 
Proposed 0.438 0.401 0.420 


3-1 2T 


Precision 


Precision 


1 1 1 1 1 1 
0 01 02 03 04 05 06 07 08 09 1 
Recall 


DS 


上 召回 率 比 较 


3 Wikipedia 数据 身 


ral 


在 实验 中 , pee EME TNE K, 6 是 收敛 的 条 件 ， 
因此 ， 设 它们 的 范围 在 0~1 间 。 它 们 的 值 越 小 ， 则 交替 更 新 的 
结果 越 准 确 。 在 测试 集 上 进行 实验 的 参数 是 根据 训练 集 的 交叉 
验证 结果 确定 ， 而 不 是 任意 选择 。 

在 Wikipedia 数据 集 上 ， 在 测试 了 不 同 的 参数 设置 后 ， 首 
先 确 定 了 L=0.02, e=107. 为 了 进一步 验证 实验 效率 , 选用 4096 
维 CNN 的 图 像 特征 和 100 维 LDA 的 文本 特征 。 实 验 中 设置 


«170.1. 0270.5 、a3=0.5， 用 于 优化 2T 和 T2I。 比 较 结果 显示 
在 表 1 中 ,可 以 看 出 本 文 提 出 的 方法 平均 精度 均值 mAP 从 1.9% 
平均 改善 至 18.4%。 图 像 查 询 文 本 任务 和 文本 查询 图 像 任务 的 
精确 范围 曲线 显示 在 图 3 中 ,范围 是 检索 到 的 顶级 数据 的 数量 。 
可 以 观察 到 ， 本 文 方法 有 更 好 的 结果 ， 它 优 于 几 种 最 先进 的 方 


ye 


法 。 


表 3 Pascal Sentence 数据 集 的 跨 媒 体检 索性 能 比较 
平均 精度 均值 (mAP) 


De 图 像 检索 文本 ”文本 检索 图 像 ”平均 值 
CCA 0.261 0.356 0.309 
DCCA 0.322 0.366 0.344 
SM 0.426 0.467 0.446 
SCM 0.369 0.375 0.372 
TVCCA 0.337 0.439 0.388 
GMLDA 0.456 0.448 0.462 
GMMFA 0.455 0.447 0.451 
MDCR 0.448 0.475 0.462 
Proposed 0.483 0.490 0.486 
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图 4 Pascal Sentence 数据 集 上 召回 率 比 较 


TE Pascal Sentence 数据 集 上 ,设置 n=0.02,e=10-4,o=0.01、 
02=0.5 、03-0.5, 用 于 优化 DT Fl T21. 比较 结果 显示 在 表 2 中 ， 
本 文 提出 的 方法 平均 精度 mAP 平均 改善 从 2.4% 至 17.796. B 
像 查 询 文 本 任务 和 文本 查询 图 像 任 务 的 精确 范围 曲线 显 在 图 4 
中 ， 在 实验 中 ， 本 文 方法 对 两 个 任务 都 得 到 了 更 好 的 结果 。 
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本 文 设计 了 一 个 有 效 的 跨 媒 体检 索 模 型 ， 通 i 
成 稀 玖 系数 ， 并 将 不 同形 式 的 数据 投射 到 公共 子 空间 ， 利 用 标 
签 对 齐 方 式 增强 不 同 模式 之 间 的 相关 性 
好 地 发 挥 模式 之 间 的 内 在 联系 ; 另外 ， 本 文 将 图 像 搜 索 文 本 与 
文本 搜索 图 像 分 开 来 训练 ， 分 别 来 学 习 两 对 投影 ， 充 分 发 挥 了 
它们 各 自 的 特征 优势 ,在 Wikipedia 数据 集 和 Pascal Sentence 两 
个 数据 集 上 ， 大 量 的 实验 证 明 ， 提 出 的 方法 不 仅 提 高 了 多 模 态 
之 间 的 检索 效率 ， 而 且 对 于 单 模 态 数据 的 识别 也 是 有 效 的， 为 
字典 学 习 扩展 了 稀疏 表示 ， 对 于 求解 最 小 化 问题 提出 了 有 效 的 
迭代 算法 。 实 验 结果 表明 ， 本 文 提 出 的 方法 是 有 效 的 。 
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